2哈尔滨医科大学药学院, 哈尔滨, 150081;
3哈尔滨医科大学第二附属医院, 哈尔滨, 150081
作者 通讯作者
计算分子生物学, 2013 年, 第 2 卷, 第 10 篇 doi: 10.5376/cmb.cn.2013.02.0010
收稿日期: 2013年10月08日 接受日期: 2013年10月16日 发表日期: 2013年10月23日
Liu et al., 2013, Identification of the Bona fide Differentially Methylated Gene Markers among Cancers, Computational Molecular Biology, Vol.3, No.2 6-15 (doi: 10.5376/cmb.2013.03.0002)
DNA甲基化在肿瘤的发展中起着重要的作用。以前的研究已经确定了癌症和正常对照组之间甲基化位点(DMS)的差异,但是,甲基化在多发性癌症中的变异并没有被发现。在这项研究中,我们检测了6例癌症(C-DMSs)和5例正常对照组(T-DMSs)中的DMSs,结果显示C-DMSs与T-DMSs高度重叠。剔除T-DMSs后,挑选4159 C-DMSs用于研究多发性癌症中的甲基化变异。进一步的分析证实了C-DMSs在癌症相关基因差异表达中的调节作用,此外,发现这些与C-DMSs相关的基因在生物学过程中会富集,如细胞膜的形成、细胞粘附、细胞迁移、免疫应答和细胞增殖以及在肿瘤和膀胱癌路径中。参与肿瘤的发生的hsa-mir-323针对28个基因,最后,我们通过提取蛋白质交互网络确定了潜在的癌症相关基因,为挖掘潜在的癌症特异性甲基化标志物和癌基因提供了一个新的框架。
DNA甲基化在癌症的发展中起着重要的作用(Esteller, 2008)。癌症是一个起源于不同组织的复杂的疾病的集合,大部分的癌症死亡是因为癌细胞从原来的部位转移到身体的另一个部位(Rodenhiser, 2009; Bhatia et al., 2012),除了遗传因素,也可能是表观遗传学的改变导致癌细胞的转移。一些基因启动子的DNA甲基化参与多种重要的与转移相关分子途径(Heng et al., 2010)。Zhang等最近的一项研究表明乳腺癌甲基化的不同转移行为具有不同的特征(Zhang et al., 2006),但是,癌细胞特异性的改变及其对肿瘤发生和转移的影响仍不清楚。
对DNA甲基化的肿瘤特异性改变的研究可以挖掘人类恶性肿瘤的标志。以前的研究已经利用生物信息学工具MethMarker确定了癌症和正常对照组之间甲基化位点(DMS)的差异(Schuffler et al., 2009)。例如,Costello等确定了异常甲基化CpG岛在肿瘤和肿瘤类型特定的甲基化模式(Costello et al., 2000)。此外, Irizarry等人关于结肠癌的进一步分析证明CpG岛的海岸存在甲基化改变,他们还从3例正常组织中发现了结肠癌和正常粘膜重叠之间的癌症特异性的区域(脑、肝、脾)。此外,Hansen等认为结肠癌特异性差异DNA甲基化区域可能有助于肿瘤的异质性(Hansen et al., 2011)。由于DNA甲基化的体细胞遗传性和可逆性,更多癌症特异性的异常甲基化标记的鉴定应该有益于挖掘治疗和诊断指标。
高通量甲基化分析技术使得探索多发性癌症的甲基化变化成为可能。Illumina人类甲基化27芯片允许研究人员询问超过27000非常翔实的CpG位点跨越14475基因包括1126肿瘤相关基因的甲基化状态(He et al., 2007)。这种高密度面板可以让研究人员做到12个样本并行,这使得它有足够的病例进行对照研究,因此,该技术已被广泛用于简介癌症和正常组织的甲基化模式(Calin and Croce, 2006; Wang et al., 2007; Yoon and De Micheli, 2005; Weber et al., 2005),但是,对不同肿瘤区域的定位与功能没有一个综合的显示。因此,在本研究中,我们针对以下两个问题通过分析六种不同的癌症和五种相应的正常对照组中超过27000个CpG位点位于基因启动子的甲基化状态。首先,多发性癌症的甲基化变化位点在哪里?考虑到DMRs在正常组织中的表达可能在细胞组织特异性基因功能的调节中发挥作用(Rakyan et al., 2008),我们分析了C-DMRs和T-DMRs之间的关系以及检测了善意C-DMRs。其次,这些甲基化变化在多发性癌症中的作用是什么?为此,我们在其调节机制、与善意C-DMRs相关基因的功能注释和蛋白质的相互作用方面进行了全面的研究。
1结果与分析
1.1 DNA甲基化在不同人体组织中的差别
为了分析人类不同类型的癌症及其相应的正常组织的甲基化模式,我们从六种不同的癌症和五种相应的正常对照组中获得了甲基化状态的含有27543个CpG位点的297例样品。为了查看不同癌症和组织中的甲基化模式, 我们使用欧氏距离进行分层聚类,所有297个样品的层次聚类表现出类似的甲基化模式,代表相同的组织或癌症,根据所有组织/癌症复制样本的平均甲基化水平得到的层次聚类也完全区分不同的组织类型,无论是正常还是疾病状态(图1A)。例如,有三个主要的甲基化集群:第一个包含了正常的原生质、多发性骨髓瘤和浆细胞白血病,第二个包括正常的脑和胶质母细胞瘤,第三个包括正常前列腺和前列腺癌。特别是我们观察到的大肠癌和乳腺癌、正常直肠和正常乳腺的聚类,这可能是因为大肠癌和乳腺癌拥有共同的易感基因(Garcia-Patino et al., 1998)或者常见抑癌基因的异常甲基化(Agrawal et al., 2007)。使用皮尔森相关系数得到的层次聚类具有与上述观察完全相同的结果。结果表明,同一组织的不同状态下的甲基化模式比在不同组织中的甲基化模式更相似。
1.2癌症与相应正常对照组甲基化模式的相似性
我们探讨肿瘤和相应的正常对照之间CpG位点的甲基化模式在全球范围内的相似性,有趣的是,多发性骨髓瘤癌症和浆细胞白血病表现出明显的比其他癌症低的甲基化水平,并且它们相应的正常组织血浆与其他正常组织相比也表现出较低的甲基化水平(图1B),揭示了癌组织和相应的正常组织之间的甲基化水平的相似性分布。对存在于CpG岛和不存在于CpG岛的CpGs进一步分析表现出相同的结果,存在于CpG岛的CpGs的甲基化的水平低于不存在于CpG岛的,关于存在于CpG岛的CpGs,癌症中的甲基化的水平轻微高于正常组织(图1C),与之前启动子区CpG岛甲基化的报道一致(Koga et al., 2009)。然后,我们绘制了转录起始位点的上游的甲基化水平(TSS),结果表明随着所有癌症/组织上游TSS距离的增加甲基化水平逐渐升高(图1D),所有这些结果表明,癌症有类似于它们的相应的正常组织的甲基化水平,因此,在研究不同癌症之间的甲基化差异时,有必要考虑组织的甲基化差异。
图1 27543个CpG在各种癌症和组织中的甲基化模式 注: (A): 使用27543个CpG中的甲基化水平聚集人类癌症和正常组织, 列代表个体样品(癌症或正常组织),行代表CpG, 热图显示甲基化水平,具有更多的甲基化和更少的蓝色; (B): 11个癌症/组织中27543个CpG的甲基化水平; (C): 位于11个癌症/组织中的CpG岛中的CpG的甲基化水平; (D): 位于11个癌症/组织中的CpG岛外的CpG的甲基化水平; (E): 具有与TSS不同距离的CpG的甲基化水平 Figure 1 Methylation pattern of 27543 CpGs in various cancers and tissues Note: (A) Clustering of human cancers and normal tissues using methylation levels in 27543 CpGs. Columns represent individual samples (cancers or normal tissues), and rows represent CpGs. The heat map shows methylation levels, with being more methylated and blue less. (B) Methylation levels of 27543 CpGs in 11 cancers/tissues. (C) Methylation levels of CpGs located in CpG islands in 11 cancers/tissues. (D) Methylation levels of CpGs located out of CpG islands in 11 cancers/tissues. (E) Methylation levels of CpGs with different distance to TSS |
1.3多发性肿瘤间差异甲基化位点的鉴定
为了挖掘癌症特异性甲基化标志物,我们使用QDMR确定在多发性癌症和正常组织中的DMSs。QDMR给每个CpG位点分配两熵,6个癌症甲基化差异的熵范围在0.187~19.057,5个正常组织甲基化差异的熵范围在0.194~17.673 (图2 A; B),熵越低,癌症的甲基化差异就越大。基于定量甲基化差异,当QDMR阈值为6个样品时,所有CpGs被列为9645 C-DMSs和17898 Cs-UMSs (图2A),当阈值为5个正常组织时,所有CpGs被列为8480 T-DMSs和19063 T-UMSs (图2B)。C-DMSs的数量多于T-DMSs,这表明在多发性癌症中有更多的CpGs有甲基化差异。多发性骨髓瘤和浆细胞白血病中大多数C-DMSs显示比其他类型癌症低甲基化水平(图2C)。巧合的是,血浆中大多数T-DMSs显示比其他正常组织中低的甲基化水平(图2D)。这表明C-DMSs和T-DMSs在不同的肿瘤/组织间具有相似的甲基化模式,此外,Cs-UMSs和T-UMSs在所有肿瘤/组织间都表现出了甲基化(图2E; F)。
图2 C-DMS, T-DMS, Cs-UMS和T-UMS的甲基化模式 注: (A): CpGs熵通过QDMR排序得到的6例癌症的甲基化热图; (B): CpGs熵通过QDMR排序得到的5例正常组织的甲基化热图; (C-F): C-DMS, T-DMS, Cs-UMS和T-UMS的甲基化水平 Figure 2 Methylation patterns of C-DMSs, T-DMSs, Cs-UMSs and T-UMSs Note: (A): Methylation heat map across six cancers of CpGs ranked by entropy derived from QDMR; (B) Methylation heat map across five tissues of CpGs ranked by entropy derived from QDMR. (C-F) Methylation levels of C-DMSs, T-DMSs, Cs-UMSs and T-UMSs, respectively |
1.4善意C-DMSs的选择
进一步分析发现57% (5486/9645)的C-DMSs也确定为T-DMSs,预期只有31% (8480/27543) (P<0.0001, 图3A),因此,当我们检测善意C-DMSs时也需要考虑T-DMSs。在这里,善意C-DMSs被定义为在癌症中鉴定为C-DMSs但是在正常组织中鉴定为T-UMSs的CpG位点。基于这些标准,我们从6例癌症中选取了4159个善意C-DMSs,这些CpG相比于其他组织在肿瘤中有不同的甲基化,可能是肿瘤特异性的甲基化标记。这些与善意C-DMSs相关基因的功能可能有助于了解肿瘤中DNA甲基化的作用。
图3 T-DMR和Cs-DMR的重叠 Figure 3 Overlap of T-DMRs and Cs-DMRs |
1.5基因甲基化位点功能的差异
为了探讨具有差异甲基化位点的基因的功能,我们使用DAVID (http://david.abcc.ncifcrf.gov/)对6例癌症中与4159善意C-DMSs相关的基因进行了功能富集分析,表明与善意差异甲基化位点相关的基因在与癌症相关的功能中具有富集作用,如细胞膜组件、细胞粘附、细胞迁移、增殖和细胞免疫反应(表1),并且在癌症的几个重要信号通路中也有富集。参与肿瘤的发生的hsa-mir-323针对28个基因(Plaisier et al., 2012)。研究表明,miRNA可能是一个潜在的DNA动态甲基化调节器也可能是多种癌症的表观遗传标志。这些结果揭示了DNA甲基化通过调节癌症基因在癌症中的潜在作用。
表1与善意c-DMS相关基因的功能富集分析 注: 这里仅列了出所有GO水平的p值<0.05的注释 Table 1 Functional enrichment analysis for genes related with bona fide c-DMSs Note: Only annotations with p value < 0.05 for GO in all levels are listed here |
1.6通过蛋白质相互作用网络识别潜在的癌症基因
我们通过选择含有善意C-DMSs的基因编码的蛋白以及其近邻的蛋白从蛋白质相互作用网络中得到了一个子网络(图4A)。结果表明,含有善意C-DMSs的基因编码的蛋白容易与其他蛋白相互作用,在这个网络中,ACSM3与大多数蛋白的相互作用,据报道,该基因与肝脏、结肠癌和乳腺癌有关(Chen et al., 2002)。此外,在这个网络中蛋白功能富集分析揭示了这些蛋白是潜在的癌症相关基因(表2)。
图4基于人类蛋白质相互作用网络的蛋白质相互作用子网络 注: 橙色代表善意C-DMS的基因编码的蛋白质, 绿色代表它们最邻近的蛋白质 Figure 4 Protein interaction sub-network based on huamn protein interaction network Note: The proteins coded by the genes with bona fide C-DMSs are in orange, and their nearest neighbor proteins in green |
表2蛋白质相互作用子网中蛋白质/基因的功能富集分析 注: 这里仅列了出所有GO水平的p值<0.05的注释 Table 2 Functional enrichment analysis for Proteins/genes in protein interaction sub-network Note: Only annotations with p value <0.05 for GO in all levels are listed here |
2讨论
在这项研究中,我们主要关注癌症中差异甲基化的CpG位点,通过一系列的生物信息学分析,包括聚类分析、差分位点识别、网络构建与功能富集分析,我们探讨了差异甲基化CpG位点的特点,认为6例癌症中的善意差异甲基化位点可能是与DNA甲基化在癌症中真正的功能元素。我们的研究提出了一种新的策略确定癌症特异性的甲基化标志物,这可能对癌症特异性诊断,治疗和预后有帮助。
3材料与方法
3.1 DNA甲基化数据
DNA甲基化数据以登录号“GSE17648”,“GSE21304”,“GSE22867”,“GSE26319”和“GSE26990”从基因表达数据库(GEO)下载获得(Barrett et al., 2009),所有这些数据通过Illumina HumanMethylation27 BeadChip (人甲基化27_270596_v.1.2)进行分析,其允许研究人员查询位于NCBI数据库中14,475共有编码测序的转录起始位点的近端启动子区域内的27,578个高信息CpG位点,在这项研究中,我们使用27543个甲基化水平已经在来源于6例癌症(大肠癌, 多发性骨髓瘤, 浆细胞白血病, 多形性胶质母细胞瘤, 前列腺癌, 乳腺癌)以及5例匹配正常对照组织(结直肠, 血浆, 脑, 前列腺和乳腺)的297个样品中检测的CpG。对于每个CpG位点,癌症/组织中的甲基化水平是每个癌症/组织的所有重复样品中的甲基化水平的平均值。
3.2层次聚类
所有297个样本的CpGs聚类分析和6例癌症和5例正常组织的层次聚类分析都利用GenePattern (http://genepattern. broadinstitute.org) (Reich et al., 2006)。欧氏距离作为列和行距离聚类的距离度量。为了避免在距离测量中出现偏差,我们还使用皮尔森相关系数对6例癌症和5例正常组织层次聚类进行了重复,其他参数用作GenePattern中给出的默认值。
3.3 C-DMSs和T-DMSs的鉴定
本文中使用的C-DMS和T-DMS通过我们在先前研究中开发的QDMR来鉴定(Zhang et al., 2011)。对于每个CpG位点,通过QDMR定量6种癌症之间的甲基化差异。对于由Q DMR给出的6个样品,熵小于DMR阈值(3.259)的CpG位点被鉴定为C-DMS。我们以同样的方式获得了5个正常对照组织中每个CpG位点的定量甲基化差异和5个样品熵低于阈值(2.701)的T-DMS。
致谢
感谢黑龙江省教育厅科学研究基金[12521270]对本研究资助。
Agrawal A., Murphy R.F., and Agrawal D.K., 2007, DNA methylation in breast and colorectal cancers, Mod Pathol, 20: 711-721
http://dx.doi.org/10.1038/modpathol.3800822
PMid:17464311
Barrett T., Troup D.B., Wilhite S.E., Ledoux P., Rudnev D., Evangelista C., Kim I.F., Soboleva A., Tomashevsky M., Marshall K.A., Phillippy K.H., Sherman P.M., Muertter R.N., and Edgar R., 2009, NCBI GEO: archive for high-throughput functional genomic data, Nucleic Acids Res, 37: D885-890
http://dx.doi.org/10.1093/nar/gkn764
PMid:18940857 PMCid:PMC2686538
Bhatia S., Frangioni J.V., Hoffman R.M., Iafrate A.J., and Polyak K., 2012, The challenges posed by cancer heterogeneity, Nat Biotechnol, 30: 604-610
http://dx.doi.org/10.1038/nbt.2294
PMid:22781679
Calin G.A., and Croce C.M., 2006, MicroRNA signatures in human cancers, Nat Rev Cancer, 6: 857-866
http://dx.doi.org/10.1038/nrc1997
PMid:17060945
Chen X., Cheung S.T., So S., Fan S.T., Barry C., Higgins J., Lai K.M., Ji J., Dudoit S., Ng I.O., Van De Rijn M., Botstein D., and Brown P.O., 2002, Gene expression patterns in human liver cancers, Mol Biol Cell, 13: 1929-1939
http://dx.doi.org/10.1091/mbc.02-02-0023
PMid:12058060 PMCid:PMC117615
Costello J.F., Fruhwald M.C., Smiraglia D.J., Rush L.J., Robertson G.P., Gao X., Wright F.A., Feramisco J.D., Peltomaki P., Lang J.C., Schuller D.E., Yu L., Bloomfield C.D., Caligiuri M.A., Yates A., Nishikawa R., Su Huang H., Petrelli N.J., Zhang X., O'dorisio M.S., Held W.A., Cavenee W.K., and Plass C., 2000, Aberrant CpG-island methylation has non-random and tumour-type-specific patterns, Nat Genet, 24: 132-138
http://dx.doi.org/10.1038/72785
PMid:10655057
Esteller M., 2008, Epigenetics in cancer, N Engl J Med, 358: 1148-1159
http://dx.doi.org/10.1056/NEJMra072067
PMid:18337604
Garcia-Patino E., Gomendio B., Lleonart M., Silva J.M., Garcia J.M., Provencio M., Cubedo R., Espana P., Ramon Y Cajal S., and Bonilla F., 1998, Loss of heterozygosity in the region including the BRCA1 gene on 17q in colon cancer, Cancer Genet Cytogenet, 104: 119-123